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摘要 :【 目的】 鉴定 中 华 按 蚊 Anopheles sinensis 基因 组 上 的 CPF 家 族 表 皮蛋 白 基 因 ,分 析 其 基因 结构 
和 特征 ,推测 其 可 能 的 生物 学 功能 ;同时 比较 研究 代表 性 驱 种 的 CPF 家 族 基因 ,提供 CPF 家 族 基 因 
的 信息 框架 。【 方 法 】 基 于 中 华 按 明 Ans sinensis, P] rb 3E JE 3X. An. gambiae, fik] d 3X. An. minimus, 
J& RAFS Aedes aegypti, Z4% *x. Culex quinquefasciatus 和 黑 腹 果 蝇 Drosophila melanogaster 全 基 
ZB 531] , VA P EG 3E dz 3X CPF 家 族 基 因 序 列 为 询问 序列 ,采用 BLASTP, TBLASTN 和 HMM 方法 鉴定 
这 些 物 种 的 CPF 家 族 基 因 ; 利 用 生物 信息 学 方法 预测 中 华 按 蚂 CPF 家 族 基 因 的 结构 、 剪 切 模式 、 信 
号 肽 . 跨 膜 区 、 结 构 域 和 3D 结构 等 ;采用 最 大 似 然 法 (maximum likelihood, ML ) 构 建 这 些 物 种 的 系 
统 发 生 关系 ,推断 CPF 家 族 基 因 的 起 源 和 进化 。 【结果 】 中 华 按 驱 、 冈 比 亚 按 蚊 、 微 小 按 蚊 、 埃 及 伊 
暧 、 致 倦 库 蚁 和 黑 腹 果 晶 全 基因 组 共有 4,4,4,3,3 和 3 个 CPF ZAAR. P ikg CPF 基因 
被 分 别 命名 为 AsCPFl,AsCPF2 ,AsCPF3 和 AsCPFA, ix Œ AsCPF 基因 的 全 长 cDNA 序列 分 别 为 
736,2 021,531 和 1 001 bp ,分 别 编码 219 ,345 ,148 和 185 AR, AsCPF1,AsCPF2 和 AsCPF3 
BURZÀ — 4- HT e. AsCPFA RR 3 ARR LED RTT 29 XO HEARTS ASCPFY, AsCPF2, 
AsCPF3 fe AsCPFA AMA 3, 2, 1 和 2 个 不 同 的 选择 性 前 切 子 。AsCPF3 的 表达 量 最 高 ,其 次 是 
AsCPF4 , AsCPF2 和 AsCPF1, 推测 的 AsCPF1,AsCPF2, AsCPF3 和 AsCPFA 的 理论 分 子 量 分 别 为 
22.86,36.47,15.08 和 18.66 kD,5 3o, 2-31 7j 9.08,8.97,9.44 和 9.16。AsCPF 家 族 蛋 和 白 含 有 保 
守 的 44 4 LA BR XU fe COR 38 JP; ASCPFI, AsCPE3 和 AsCPF4 具有 信号 肽 ,为 分 尖 型 蛋白 ,而 
AsCPF2 缺乏 信号 肽 ,为 非 分 沁 蛋 白 。 二 级 结构 分 析 显 示 ,4 个 AsCPF 均 具 有 a- 螺旋, 无 规 卷曲 和 
延伸 链 ,只 有 AsCPF4 有 一 段 跨 膜 片段 ,位 于 第 5 -27 位 氨基 酸 。 系 统 发 育 分 析 显 示 ,CPF3 基因 可 
能 是 最 早 分 化 出 来 的 CPF 家 族 基 因 ,CPF1 和 CPF2 基因 可 能 是 同一 祖先 基因 经 过 一 个 基因 重复 事 
件 分 化 形成 的 ,CPF4 基因 很 可 能 是 按 蚂 所 特有 的 ,是 最 晚 分 化 出 米 的 CPF 基因 。 以 冈比亚 按 蚊 为 
FR, FREDI ET, P CPF 表皮 蛋白 的 Ka/ Ks 值 均 小 于 1, 表 现 出 纯化 选择 。【 结论 ] 对 
P li CPF 家 族 基 因 在 全 基因 组 上 的 鉴定 和 特征 分 析 , 及 对 代表 性 蚊虫 CPF 家 族 基 因 的 比较 分 
析 , 揭 示 了 蚊虫 CPF 家 族 基 因 的 多 样 性 结构 和 和 氨基酸 特征 以 及 起 源 和 进化 ,这 为 该 家 族 基 因 的 进 
一 步 研究 和 利用 提供 了 信息 基础 。 

关键 词 : 中 华 按 蚊 ; 表皮 蛋白 ; CPF 家 族 ; 保守 基 序 ; 进化 
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Identification and characterization of the CPF family of cuticular protein 


genes in the genome of Anopheles sinensis ( Diptera. Culicidae) 
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Molecular Biology, College of Life Sciences, Chongqing Normal University, Chongqing 401331 , China) 
Abstract. [ Aim] This study aims to identify the CPF family ( CPFs) of cuticular protein genes in 
Anopheles sinensis genome, to analyze their structure and characteristics, to deduce their possible 


biological functions, and to investigate and compare the CPFs of representative mosquito species so as to 
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provide information frame for the family of genes. [Methods] We identified the CPFs in the genomes of An. 
sinensis, An. gambiae, An. minimus , Aedes aegypti, Culex quinquefasciatus and Drosophila melanogaster using 
BLASTP, TBLASTN and HMM with An. gambiae CPFs as query, predicted the structure and splicing 
variation of An. sinensis CPF gene and the signal peptide, transmembrane region, structural domain and 
3D structure of An. sinensis CPF proteins using bioinformatics techniques, and constructed phylogenetic 
relationships using maximum likelihood ( ML) method and deduced the origin and evolution of CPFs in 
these species. [Results] There are 4, 4, 4, 3, 3 and 3 CPFs in An. sinensis, An. gambiae, An. 
minimus, Ae. aegypti, Cx. quinquefasciatus and Dr. melanogaster genomes, respectively. The CPFs in 
An. sinensis were named as AsCPF1, AsCPF2, AsCPF3 and AsCPFA, respectively. Their full-length 
cDNA sequences are 736, 2 021, 531, and 1 001 bp, respectively, encoding 219, 345, 148 and 185 
amino acids, respectively. AsCPF1, AsCPF2 and AsCPF3 only have one intron, but AsCPF4 contains 
three introns, which all have phase “0”. There are 3, 2, 1 and 2 selective spicing variants for AsCPF1, 
AsCPF2, AsCPF3 and AsCPF4 , respectively. AsCPF3 has the highest expression quantity, followed by 
AsCPFA4, AsCPF2 and AsCPF1. The theoretical molecular weights of AsCPF1, AsCPF2, AsCPF3 and 
AsCPF4 are 22. 86, 36.47, 15. 08 and 18. 66 kD, and their isoelectric points are 9. 08, 8. 97, 9.44 
and 9.16, respectively. These AsCPFs contain a 44-amino-acid conserved region and C-terminal region, 
and all are secretory proteins with signal peptide sequences except for AsCPF2 that is non-secretory 
protein and lacks a signal peptide sequence. All the four AsCPFs have alpha helix, random coil and 
extended strand, and only AsCPF4 has a transmembrane region that is located between amino acid 5 to 
27. Phylogenetic analysis showed that CPF3 might be the earliest derived CPF gene, CPF1 and CPF2 
might originate from a common ancestor and consequently experienced a gene duplication event, and CPF4 
might be unique for Anopheles mosquitoes and the latest derived CPF gene. The Ka/Ks ratio of CPFs are all 
less than 1 in An. sinensis in reference to An. gambiae, suggesting the purification selection of these genes 
in evolution. [Conclusion] The whole-genome identification and characteristics analysis of CPFs in An. 
sinensis and the comparison of CPF's in representative mosquito species revealed the diversity, structure and 
amino acid characteristics and the origin and evolution of the CPF family of genes in mosquitoes, which 
provides a comprehensive information frame for further research and utilization of the CPF gene family. 


Key words: Anopheles sinensis; cuticular protein; CPF family; conservative motif; evolution 
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昆虫 的 表皮 是 昆虫 体 壁 皮 细 胞 分 泌 物 形成 的 一 
种 高 度 有 序 的 层 状 结构 ,是 昆虫 适应 复杂 外 界 环境 
的 重要 保护 器 官 ,具有 高 等 动物 的 皮肤 和 骨骼 的 双 
重 功能 ,在 昆虫 发 育 过 程 中 的 体型 的 塑造 ,水 分 的 维 
TF ,抵御 外 界 病原 体 的 攻击 和 维持 正常 的 活动 能 
等 方面 起 着 重要 作用 (Delon and Payre, 2004; 
Moussian et al., 2005 ; Willis et al., 2005 ; X| iIa E , 
2006; 孙 虹 霞 等 , 2007) 。 昆 虫 表皮 的 主要 成 分 是 
RJE H (cuticular proteins, CPs) PIJL T JE, RKE 
日 是 昆虫 重要 的 结构 集 日 。 表 皮 集 日 基因 构成 一 个 
超 基 因 家 族 , 基 于 保守 的 氨基 酸 基 序 被 进一步 分 为 
12 个 家 族 , Bl CPR, CPF, CPFL, TWDL, CPLCA, 
CPLCG, CPLCW, CPLCP, CPAPI, CPAP3, CPG 和 
Apidermin ( He et al., 2007; Togawa et al., 2007; 
Willis, 2010), E] Snyder 等 (1982 ) 首次 报道 了 黑 腹 
Riy Drosophila melanogaster 的 4 条 表皮 集 日 基因 序 
列 以 来 ,至 2014 年 在 NCBI 中 收录 的 表皮 有恒 日 基因 
序列 已 超过 1 400 条 ( 梁 欣 等 , 2014 ) 。Andersen 等 






































( 1997) ÆE E Tenebrio molitor MÆ W. KHS Locusta 
migratoria 中 首次 报道 了 6 条 CPF 表皮 和 蛋白 序列 ,其 
保守 基 序 为 一 段 51 个 氨 基 酸 的 残 基 , 被 命名 为 CPF 
家 族 ;其 后 ,Togawa 55 (2007 ) 根 据 可 搜索 的 表皮 和 集 
日 序列 ,对 CPF 家 族 的 基 序 进行 了 修订 ,发 现 CPF 
集 日 保守 基 友 只 有 42 ~ 44 个 氨基 酸 ,日 C- 末 端 保 
守 , 其 保守 基 序 为 :A-(LIV)-x-(SA)-(QS)-x-(SQ)- 
x-( IV) -( LV) -R-S-x-G-( N/G )-x(3)-V-S-x-Y-( ST)- 
K-( TA)-( VI) -D-( ST) -( PA) -C YF) -S-S-V-x-K-x-D- 
x-R-(IV ) -( ST) -N-x-( GA) ( Togawa et al., 2007) 。 
目前 ,尚未 有 关于 CPF 家 族 表皮 集 白 基因 的 全 基因 
组 鉴定 和 生物 信息 学 分 析 人 研究 ,对 其 功能 的 人 研究 其 
少 。Guan 等 (2006 ) 在 研究 末 晶 的 形体 时 发 现 , 当 表 
IEAA DmTwlDl 发 生 窗 变 后 ,导致 末日 身体 的 
纵横 比例 变 小 ,导致 “ 矮 胖 ” ,表明 Dm Tw DA 基因 参与 
昆虫 体型 的 构建 ;Togawa 等 (2007) 对 冈比亚 按 蚊 
Anopheles gambiae B^ jf 25 7 34,4 个 AeCPF 基因 的 
mRNA EH fS ax ux HEUS Sz B 39] 635 , DUET TRES] n] 
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能 与 成 虫 体 壁 上 表皮 的 形成 相关 。 

中 华 按 蚊 Anopheles sinensis 是 我 国 及 东南 亚 地 
区 天 疾 的 主要 传播 媒介 ,广泛 分 布 于 阿 宇 计 、 中国、 
"b ES]. H ZR, pj 28 ED BE JO V8 ME RJ GR DC (Sinka et 
al., 2011; Chen et al., 2014) 。 已 有 人 研究 表明 ,中华 
控 蚊 对 多 种 杀 虫 寞 产生 了 抗 性 ,主要 表现 在 行为 抗 
PE CHUR OREZIS HG] ) RADIE C BOR ,药物 穿 
透 性 降低 ) 代谢 抗 性 (解毒 酶 活性 增强 ) FREER Di 
性 ( 度 标 位 点 的 不 敏感 )4 个 方面 (Wondji et al., 
2009; Edi et al., 2012) 。 其 中 对 代谢 抗 性 和 靶 标 抗 
性 已 有 大 量 的 研究 报道 ,但 由 于 方法 学 的 原因 ,对 表 
皮 抗 性 和 行为 抗 性 一 直 少 有 基因 水 平 的 人 研究。 近年 
ok, 随 着 生物 技术 的 快速 发 展 , 转录 组 
( transcriptome )、 基 因 组 (genome) 和 得 白质 组 
( proteome ) SEHH ^ 3r 27 VA BJ Iz Hd , K BZ 8 EA AE DAT E 
表皮 的 整合 .体型 的 塑造 \ 骨 化 部 位 的 构建 .适应 环 
境 的 能 力 及 其 他 生物 学 等 方面 的 功能 研究 日 益 引 起 
人 们 的 关注 ( Dittmer et al., 2012), "ll Reid 等 
(2012) Az JW ,在 致 倦 库 蚊 Culex quinquefasciatus PEH 
MAREMA ua A HEU PAL E VALE HJ RC EL dS 
因 ,分 别 是 RR2 型 和 CPLC 型 ;在 冈比亚 按 蚊 抗 拟 
除虫菊 酯 杀 忠 剂 品 系 中 ,表皮 和 集 日 基因 CPR30 表达 
量 显 阁 升 高 ,说 明 该 表皮 和 集 日 基因 与 杀 虫 剂 抗 性 有 
关 ( Edi et al., 2012) , 

XE FOR , EKI vs CHE] rp fe Ti CAE D] 2H 7T JE 
了 精细 测序 和 注释 工作 ,并 对 不 同 发 育 时 期 中 华 按 
尽 进行 了 转录 组 测序 (Chen et al., 2014) ,目前 正在 
开展 杀 虫 剂 抗 性 基因 组 和 功能 基因 组 人 研究。 本 研究 
基于 中 华 按 蚊 基 因 组 测序 数据 ,采用 BLASTP, 
TBLASTN 和 Hidden Markov Model ( HMM) 75 32: Z& £t 
地 开展 了 全 基因 组 CPF 家 族 基 因 的 鉴定 和 分 类 , 进 
而 预测 了 其 基因 的 结构 .序列 特征 、 奉 换 率 等 基因 特 
征 ,采用 同样 方法 也 在 办 比 亚 按 虹 、 微 小 按 蚊 An. 
minimus 、 挨 及 伊 蚊 Aedes aegypti , BPE JE AIR A 
晶 全 基因 组 上 鉴定 和 分 类 了 CPF 家 族 的 基因 ,并 运 
用 最 大 似 然 法 (maximum likelihood，ML ) 构 建 和 讨 
论 了 这 些 昆虫 CPF 家 族 基因 的 系统 发 育 和 进化 ,为 
进一步 研究 CPF 家 族 基 因 砍 定 了 信息 基础 。 


1 材料 与 方法 
1.1 数据 来 源 


中 华 按 蚊 基因 组 和 转录 组 数据 (SRA 登录 号 : 
SRA073189 ) 来 目 于 重庆 师范 大 学 昆虫 与 分 子 生 物 
























































FUE E IT , X Eb MV TES Vir TEC 3 I DUC Epa PE 
蚊 和 黑 腹 条 晶 等 昆虫 的 基因 组 序列 下 载 自 NCBI 的 
GenBank 数据 库 (http ;// www. ncbi. nlm. nih. gov/ ) 或 
VectorBase 数据 库 ( https ;// www. vectorbase. org/ ) 。 
1.2 CPF 家 族 基因 的 鉴定 和 转录 

自 完 ,以 冈比亚 按 蚊 CPF 家 族 氨基 酸 序列 作为 
查询 序列 ,采用 BLASTP 和 TBLASTN 在 中 华 按 蚊 基 
因 组 数据 库 中 进行 同 源 性 搜索 ,E-value <1 x 10 ^ fE 
为 国信 ;其 次 ,采用 HMM (Pfam 号 : PF11018) 搜 
R ,将 得 到 的 候选 基因 再 进行 手工 校对 和 系统 发 
育 关 系 分 析 , 选 取 与 冈比亚 按 蚊 CPE 相似 性 最 高 
的 序列 ,进一步 完成 序列 的 验证 。 使 用 鉴定 出 的 
CPF 基因 序列 作为 查询 序列 ,采用 BLASTP 搜索 转 
录 组 数据 库 ,检测 鉴定 的 CPF 基因 是 否 转录 ,选择 
性 的 斑 切 模式 。 使 用 标准 的 FPKM (fragment per 
kb per million reads) 估计 各 选择 性 剪 切 转录 子 的 
AGER. 
1.3 CPF 家 族 基因 的 特征 分 析 

使 用 DNAMAN7. O ( http://dnaman. software. 
informer. com/7.0/) 鉴定 中 华 按 蚊 CPF 家 族 cDNA 序 
列 的 开放 阅读 框 并 翻 详 成 氨基 酸 序 列 ; 使 用 BLAST 
TĦ (http://www. ncbi. nlm. nih. gov/BLAST/) 进行 
序列 相似 性 搜索 ;采用 软件 ExPASy ( http://www. 
expasy. org/ ) 预测 中 华 按 蚊 CPF 家 族 集 白 的 理论 分 子 
量 和 等 电 点 等 ;采用 ClustalW 软件 (Thompson et al., 
2002 ) 对 中 华 按 蚁 CPF 家 族 重 日 和 其 他 昆虫 同 源 CPF 
序列 进行 多 重 序 列 比 对 ,并 用 Color Align Conservation 
软件 (http :// www. bioinformatics. org/sms2/color_align 
cons. html ) 进行 染色 ;使 用 ProtScale 4X fF ( http :// 
www. expasy. org/cgi-bin/ protscale. pl) 347 4 F4 Jot Di 
水 性 分 析 ; 使 用 TMHMM2. O( http://www. cbs. dtu. 
dk/service/ TMHMM2. 0/) 进行 重 白 质 路 膜 区 分 析 ; 
使 用 SignalP 4. 1 X fF (http://www. cbs. dtu. dk/ 
servicesysignalP/) 进 行 信号 肽 预测 ;利用 蛋白 质 亚 细 
胞 定位 软件 TargetP ( http://www. cbs. dtu. dk/ 
services/TargetP/) 对 集 日 进行 定位 预测 ;使 用 软件 
NPS( http ://npsa-pbil. ibep. fr) 对 生日 质 二 级 结构 预 
测 ; 对 于 生日 质 三 级 结构 ,首先 通过 PSI-BLAST 在 
PDB(Protein Data Bank ) 中 搜索 与 中 华 按 蚊 CPE 相似 
性 高 的 蛋白 序列 ,然后 采用 SWISS-MODEL ( http :// 
swissmodel. expasy. org/ ) 进行 同 源 建 模 及 3D 结构 预 
WOESE, 2014)。 
1.4 CPF 家族 基因 系统 发 育 分 析 

以 中 华 按 蚊 CPF 家 族 序 列 作为 询问 序列 ,采用 
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同样 方法 鉴定 其 他 代表 性 昆虫 基因 组 上 的 CPF 基 
,基于 由 基因 核酸 序列 推导 的 氨基 酸 序 列 做 系统 
AE Ar d I RU IRR f CPF 基因 作为 外 群 ; 利 
用 MEGAS 软件 (Tamura et al., 2011) 中 的 最 大 似 然 
法 构建 中 华 按 蚊 、 风 比 亚 按 蚊 .微小 按 蚊 埃及 伊 蚊 、 
致 倦 库 蚊 和 黑 腹 采 晶 CPE 家 族 基因 序列 的 系统 发 
育 树 ;使 用 1 000 次 重复 计算 系统 发 育 树 上 的 
bootstrap 值 ( 目 展 分 析 值 ) ,大 于 50% 目 展 值 标 于 系 
统 发 育 树 讨论 其 系统 发 育 关 系 。 
1.5 CPF ZG [AL RR AY T 

Tg rp fe qii: CPF 家 族 基 因 的 核 苷 酸 序 列 与 内 
比 亚 按 蚊 同 源 序列 (去 除 终止 密码 子 ) 通 过 ClustalW 
比 对 ,其 结果 用 KaKs_Calculator 软件 (Zhang et al., 
2006 ) 计 算 它 们 的 非 同 义 蔡 换 率 ( Ka) , Ju] X ER 
( Ks) 及 Ka/Ks 比值 ,讨论 CPF 家 族 基 因 的 选择 压力 
和 选择 效应 。 








2 结果 


2.1 中 华 按 蚊 CPF 家 族 基 因 的 鉴定 

通过 搜索 中 华 按 蚊 基 因 组 数据 库 , 得 到 中 华 按 
ty 4 个 候选 CPF 基因 , 与 登录 号 为 AGAP010900, 
AGAPO010901, AGAPO004690 和 AGAP000382 的 站 比 
亚 按 蚊 基 因 同 源 性 最 高 , 核 苷 酸 序列 一 致 性 分 别 为 
8896, 8396 ,77% $4 9296 。 结构 域 分 析 显 示 这 4 个 
基因 的 编码 氨基 酸 均 具有 昆 忠 CPF 家 族 重 日 保守 
的 基 序 , 即 44 个 氨基 酸 的 区 域 和 C- 末 端 区 域 (图 1) 
(Togawa et al., 2007) ,确信 这 4 个 基因 均 为 CPF 家 
族 基 因 。 该 4 条 序列 的 cDNA 均 具有 起 始 密 人 码 子 
(ATG) 和 终止 密码 子 (TAA) ,为 全 长 序列 ,依次 命 
名 为 AsCPFl, AsCPF2, AsCPF3 和 AsCPF4, 其 中 
AsCPF1 推导 的 氨基 酸 序列 如 图 1。 中 华 按 蚊 CPF 家 








-186 TGGCGCAGCGGTAACGCAAGAAAACACTACACCATAGTCGTT 
-144 GGATCGAATCCCGAGTCTGGCACTCCCCAGTATTATGAACCACTGACCAACGATCTATCATA TAACCGCCTT 
-72 TCOGTTACAGAAATTCTCTACGGAGAGCTAGTCCTACTCGGGGATGTTAAGCCAATGAAGAAGAATCAT TCG 
1 — [&TGoCATTCAAGTTCGTCGTCTTCCTGGCCTCGTTGGCCGTCGCTAGCGCTGGATACCTGGAGGCTGGCCAT 
1 MAFEFVVFLASLAVASAGYLEAGOGIH 
T3 | GCCGTCCAGTACGCCGCCCCGGTTGCTCACTACTCGCCGGCTTCGTCGGTGAGCTACAGCAC CATCTCGCAG 
25 A VOY A A PV ART SPASSVYSYSTISQ 
145 GCTGOCCCGGCCAAGCTGGCCTACGCCGCCCCOGTTGCCAAGACCATCTCGTACGCCGCCCC TCAGGTG TAC 
d — À A P AKLAYAAPVYVAKTISYAAPOQIYNI!?!I 
217  GCCGCCCCGCAGGTCTATGCCGCCCCGGTTOCCAAGACCGTCATCTCCAGCCCOGCCGTCOG TGCCACGCAC 
73 A A P QV Y A AP VAKTVISSPAVGATH 
289  GAGAGCACGATCCGTTCCCATGATGGAACCGTCTCGCACTACTCCAAGGCTGTCGACACCGCTTTCTCGAGC 
97 E STIRSHDGTVSHYSEKAVDTAFSS 
361 GTCCGCAAGTCOGACACCCGCATCACCAACGAGCTGCCCAAGTACACCTATGCCCAGCCCGTOCTGACC AAG 
121 V R E S D TR I TN ELP KEYTYAQPVLTKE 
433  CAGGTTGCCTATGCTGCCCCGGCTGTCCACACCACCTATGCTGCTCCGGCCGTCCACACCAGCTATGCTGCC 
145 Q V AY À AP AV H T TY AÀ AP AV HT SY A 
505 CCGGCTGTCCACACCACCTATGCTGCCCCGGCTGTTGCCACCTACGCCCATGCTGCCCCGGCTGTCCACACC 
168 P A VH TT YA AP AVATYAHAAPAVHIT 
577  TCCACCAAGACTCTGACCTACTCGCCGGCCGTCCAGGTTGCGCACACCACCTATGAGGATGCTCATGCCCAT 
193 S T K T L T Y S P à V Q V à H T T Y E D A H A H 
649 TATGCCTGdTAADCCGGCTGGCTCGTAGCTCAGAGTCTTGGCOGCGACGACGOGAGCGGCATOGGCGTACAC 


217 Y A W * 


T21  COGGGTOCTTTIGGTGGTACAGAGGC TOGGTOCTCAGCGACOGAGGGTCTTGGTGTAAGTCGGCT GCTOGAC GT À 
T66 |CGCGGTCTTIGGTGTAGGTCGGCTGCGAGACGTATGCGGTCTTGGT 





图 1 中 华 按 蚊 AsCPF1 cDNA 及 其 推导 的 氨基 酸 序列 


Fig. 1 











cDNA and deduced amino acid sequence of AsCPF1 from Anopheles sinensis 


图 中 左边 数值 为 核 车 酸 和 氨基 酸 序列 编 号 , 翻 详 起 始 密 码 子 和 终止 密码 子 被 加 框 ,CPF 保守 结构 域 和 4 ^1 SURE IG DC BUNT C-AR m DCX JH. P Xi] £X, 


标 出 。The numbers on the left are the positions of nucleotides and amino acids on the sequences, the start and stop codon are boxed, and the 44-amino- 


acid conserved region and C-terminal region are underlined. 
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族 基 因 的 基本 信息 如 表 1 所 示 , 包 括 scaffold 位 置 、 
cDNA 长 度 .编码 区 长 度 、 有 宽 基 酸 大 小 AT 和 CC R 
量 。 从 表 1 可 以 看 出 中 华 按 蚊 该 家 族 基 因 中 ， 
AsCPF1 和 AsCPF2 分 布 于 scaffold9 上 ,对 应 办 比 亚 
tri Ze ta pk 3L, AsCPF3 和 AsCPFA 分 别 分 布 于 
scaffold67 和 scaffold16 E, XF [x] EE Ny. Tc oc ye £6, 4% 
2L fll X ( Togawa et al., 2007) ,由 148 ~345 个 氨基 
酸 组 成 ,GC 含量 所 占 比 例 高 ,达到 60% 以 上 。 

2.2 ”中华 按 蚊 CPF 家 族 基因 的 特征 

2.2.1 CPF 氨基 酸 的 理化 性 质 : 通 过 ExPaSy 软件 











的 ProtParam 分 析 了 该 家 族 成 员 氨 基 酸 的 理论 分 子 
量 和 等 电 点 , 绪 果 显示 :AsCPF1，, AsCPF2, AsCPF3 
和 AsCPF4 编码 蛋白 的 理论 分 子 量 分别 为 22. 86, 
36.47, 15. 08 和 18. 66 kD, 等 电 点 依次 为 9. 08， 
8.97, 9.44 $19.16, 氨基酸 组 成 预测 ,发 现 4 NE 
HP 25 X& PI AR (Ala) 所 占 比 例 最 高 , 依次 为 
24.2% , 22. 9% , 21. 696 和 31. 9% , 55 / IR AMR 
( Pro) MAAM ( Val) Sr zK ex 8 2 EG E, [HOS 
水 性 的 丝氨酸 (Ser) 和 络 氨 酸 (Tyr) 含 量 也 较 丰 是 ， 
亲 水 性 氨基 酸 平 均 质量 分 数 达 17.3396 (3€ 2). 














表 1 中 华 按 蚊 CPF 表皮 蛋白 基因 的 基本 信息 


Table 1 Basic information of the CPF cuticular protein genes in Anopheles sinensis 


编码 区 长 度 (bp) 氨基 酸 大 小 (A+T)/(G+C) 
Coding region length Amino acid size (%) 
660 219 35.3/64.7 
1 038 345 38.2/61.8 
447 148 39.4/60.6 
558 185 32.1/67.8 


R2 中 华 按 蚊 CPF 表皮 香 白 的 氨基酸 组 成 


Table 2 Amino acid composition of the CPF cuticular proteins in Anopheles sinensis 


基因 名 Scaffold 位 置 cDNA 长 度 (bp) 
Gene name Scaffold location cDNA length 
AsCPF1 scaffold9 :1118090 — 1118825 736 
AsCPF2 scaffold9 :1112775 - 1114795 2 021 
AsCPF3 scaffold67 : 1263469 — 1263999 531 
AsCPF4 scaffold16 11487563 — 11488563 1 001 
o VIA TT "D 
Ala Pro Ser 
AsCPFI 24.2 7.3 9.6 
AsCPF2 22.9 7.8 8.4 
AsCPF3 21.6 8.1 8.8 
AsCPFA 31.9 8.6 8.6 


2.2.2 CPF ARKI ST 28 T4 EX AH SMART 软 
件 分 析 中 华 按 蚊 CPF 家 族 重 日 ,对 其 中 的 AsCPFI 
须 基 酸 序列 与 其 他 3 种 蚊虫 CPF1 氨基 酸 序 列 进行 
多 重 序 列 比 对 。 根 据 图 2 序列 一 致 性 比 对 结 采 显 
示 ,中华 按 蚊 与 其 他 3 种 蚊虫 CPFI AEREA TH 
同 的 保守 结构 域 ( 图 2)。 

2.2.3 CPF 家 族 基因 的 结构 :基因 结构 分 析 表 明 
AsCPFl,AsCPF2 和 AsCPF3 基因 仅 含 有 一 个 内 售 
T ASsCPFA 基因 具有 3 个 内 合子 (图 6) ,所 有 内 含 
子 均 为 0 位 内 含 子 (内 含 子 位 于 一 密码 子 的 第 3 位 
核 车 酸 和 为 一 密码 子 的 第 1 位 核 车 酸 之 间 )。 这 与 
风 比 亚 按 蚊 该 家 族 的 基因 结构 基本 相同 ,只 是 
CPF4 基因 内 含 子 位 相 不 一 致 ,在 风 比 亚 按 蚊 中 该 
基因 的 3 个 内 含 子 有 3 种 不 同类 型 的 相位 , 即 0 位 
内 含 子 、1 位 内 合子 (位 于 同一 密码 子 第 1 MAER 
和 第 2 位 核 背 酸 之 间 ) 和 2 位 内 含 子 (位 于 同一 密 
码 子 第 2 MERE 3 位 核 苷 酸 之 间 )( 表 3) 。 














比例 Proportion ( 96 ) 


苏 氨 酸 酷 氨 酸 5-171 组 氨 酸 + 其 他 
Thr Tyr Val His + others 
10.5 8.7 11.0 5.9 +22.8 
9.0 8.1 10.1 5.8427.9 
6.1 7.4 9.5 4.1+34.4 
0.5 9.7 9.7 5.9 +25.1 


RI 中 华 按 蚊 和 冈比亚 按 蚊 CPF 家 族 基 因 内 含 子 - 
外 显 子 结构 
Table 3 Intron and exon organization of the CPF family 


genes in Anopheles sinensis and An. gambiae 


基因 名 外 显 子 长 度 内 合子 长 度 内 含 子 相 位 
人 (bp) (bp) (0/172) 
Exon size Intron size Intron phase 
AsCPF1 12/648 76 0 
AsCP F2 204/834 983 0 
AsCPF3 9/438 84 0 
AsCPFA 12/261/195/84 90/281/78 0/0/0 
AgCPFI 12/705 79 0 
AgCPF2. 48/816 224 0 
AgCPF3 91/557 67 0 
AgCPFA 12/265/175/85 303/96/70 0/1/72 
2.2.4 信号 肽 预测 和 亚 细 胞 定位 :SignalP4. 1 软件 


预测 结 采 显示 , 除 AsCPF2 的 香 日 序列 不 存在 信号 
肽 外 ,其 他 3 个 重 白 序列 都 具有 信号 肽 ;AsCPF1 和 
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CqCPF1 o 
AaCPF1 63 
ASCPFI1 69 
AgCPF1 69 
CqCPF1 108 
AaCPF1 114 
AsCPF1 138 
AgCPF1 139 
CqCPF1 IMSAXOVSYAAPAVTTYAHAZMPYP--AV HABP-VATYM 169 
AaCPF] SYAAPABVHTSMPBMAPA----VATYAHAAPAVAMBAAPVAVAK----OVSYBRBYP--AYO N aapavaryi 174 
ASsCPF1 YAAPA---VHT P-AVATY -A 184 
AgCPF1 VAHBBBAAvHT PRavorvald 203 
CqCPF1 
AaCPF1 
AsCPF1 
AgCPF1 


图 2 
Fig. 2 Amino acid sequence comparison of AsCPF1 and CPF1 genes from other Anopheles species 


Cq: Sfi Fel. Culex quinquefasciatus; Aa; Y v fti Aedes aegypti; As; PÆRE Anopheles sinensis; Ag: X] EE EFR EX Anopheles gambiae. 图 中 用 线 


框 标 出 的 为 CPF 家 族 的 2 个 保守 结构 域 ; 黑 色 、 灰色 和 日 色 阴 影 分 另 











中 华 按 蚊 CPF1 基因 与 其 他 按 蚊 CPFY 基因 氨基 酸 序列 比较 











1 表示 氨基 酸 序 列 保 守 性 为 100% ,80% 和 80% 以 下 。Two conserved 


domains are line-boxed. Black, grey and white shade denote the amino acids with 100% , 80% and below 80% identity, respectively. 


AsCPF4 表皮 和 储 白 的 信号 肽 序列 均 位 于 第 1 -17 位 
aA AE , M AsCPF3 表皮 有恒 日 在 第 1 - 16 MAER. 
TargetPl.1 分 析 显 示 ,AsCPF1 ,AsCPF3 和 AsCPF4 4& 
日 均 为 分 泌 蛋 日 , 即 分 泌 到 细胞 周 质 , 故 该 蛋白 定位 
到 胞 外 ;而 AsCPF2 和 集 日 无 信号 肽 ,为 非 分 泌 集 日 。 

2.2.5 BUK HEURE 38st ExPaSy 软件 的 ProtScale 





功能 预测 CPF ZAR HA WKE , 结 末 显示 CPF 家 
X88 EAS RKE F1 ,无 芷 水 区 域 存 在 。 

2.2.6 跨 膜 区 分 析 : 采 用 TMHMM Server v. 2. 0 软 
件 预 测 该 家 族 和 蛋白 的 跨 腊 区, 发现 只 有 AsCPFA 有 
一 个 跨 膜 片段 ,位 于 第 5 -27 MARZH, HE 
日 可 能 为 膜 结合 集 日 (图 3)。 
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B 02 E "- f 
i | JULI 
0 citm DESERT ANIN 
20 40 60 80 100 120 140 160 180 


氨基 酸 位 点 Amino acid site 


图 3 PEKI CPF4 各 日 路 膜 区 拓扑 模型 


Fig. 3 Deduced transmembrane domain topology model of AsCPF4 protein in Anopheles sinensis 


2.2.7 二 级 结构 和 三 级 结构 预测 :NPS 软件 预测 结 
果 显 示 ,AsCPF1 和 蛋白 二 级 结构 中 a- 螺旋 ,无 规 卷曲 和 
延伸 链 分 别 占 36.06% , 45.66% 和 18. 2696 ,在 AsCPF2 
蛋白 中 则 分 别 为 37. 3996 , 46. 6796 和 15. 94% ,在 
AsCPF3 蛋白 中 分 别 占 41. 2296, 35. 8196 和 
22.9796 ,在 AsCPFA 蛋白 中 分 别 占 67. 5796 , 26.49% 


4l 5.9596 。 可 以 看 出 在 AsCPF1 和 AsCPF2 REE 
日 中 无 规 卷 曲 占 比 最 高 ,而 在 AsCPF3 和 AsCPFA 中 
Q%- 曼 旋 占 比 最 高 。 由 此 推测 ,无 规 卷 曲 是 AsCPF1 
和 AsCPF2 二 级 结构 中 最 大 量 的 结构 元 件 ,a- 蝶 旋 
和 延伸 链 分 敌 于 整个 生 日 质 中 ;而 在 AsCPF3 和 
AsCPF4 的 二 级 结构 中 ,a- 螺 旋 是 最 大 量 的 结构 元 
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件 。 通 过 PSI-BLAST 搜索 ,只 有 AsCPF2 和 AsCPF3 
分 别 与 NMDA 受 体 蛋白 (PDB 编号 : 4tlm. 1. A) 和 


fa T8 EJ CPDB 编号 : 4u5a. 4. A) ZAAEBW 91 — SUE 


最 高 ,分别 为 15.63% 和 33. 3396 ,被 选 作 同 源 建 模 的 
模板 ,再 通过 SWISS-MODEL 建 模 预测 得 到 AsCPF2 
和 AsCPF3 和 蛋白 的 三 级 结构 (图 4)。 
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图 4 中 华 按 蚊 AsCPF2(A) 和 AsCPF3( B) 的 三 维 结构 图 
Fig. 4 Predicted 3D structure of AsCPF2 ( A) and AsCPF3 
( B) in Anopheles sinensis 
2.3 CPF 家 族 基因 系统 发 育 
经 过 全 基因 鉴定 ,中 华 按 归 I EERS 、 微 小 





X 











70 r AsCPFI 


按 蚊 .埃及 伊 蚊 、 致 倦 库 蚊 和 墨 腹 果 晶 分 别 有 4, 4, 
4, 3, 3 和 3 个 CPF ZIRK. Br oz m 5 种 蚊虫 
的 CPF3 基因 形成 了 一 个 独立 的 文系 ,具有 100% 的 
bootstrap 值 支持 ,该 支 系 位 于 系统 发 育 树 的 底 端 ,与 
黑 腹 果 蝇 3 个 CPF 基因 形成 的 支 系 形成 姊妹 群 ， 
ME Rub HO CPF3 基因 ,这 表明 CPF3 基因 可 能 
是 最 早 分 化 出 来 的 CPF 基因 (图 5)。 所 研究 蚊虫 
的 CPP $1 CPF2 基因 聚集 在 同一 分 文 上 , 而 且 同 
一 蚊 种 的 CPF1 和 CPF2 基因 部 分 形成 独立 的 分 
x NU RES d) HUS CPFI 和 CPF2 基因 ,表明 
CPF1 和 CPF2 近 缘 ,可 能 来 自 于 同一 祖先 基因 , 8 
后 经 历 了 基因 的 重复 事件 。 中 华 按 蚊 、 办 比 亚 按 蚊 
和 微小 按 蚊 的 CPFA 聚集 在 一 个 独立 文系 ,具有 
10096 的 bootstrap 文 持 ,所 研究 的 其 他 3 个 种 缺乏 
CPFA 基因 ,很 可 能 CPF4 基因 是 按 蚊 属 蚊虫 特有 
的 ,是 最 晚 分 化 出 来 的 CPF 基因 。 
2.4 CPF 家 族 基因 的 替换 率 分 析 

非 同 义 蔡 换 率 (Ka) 和 同 义 蔡 换 率 (Ks) 的 比值 


AsCPF2 
AmCPF2-AMINO009292 
gc 外 AgCPF2-AGAP010901 
AgCPF1-AGAP010900 


67 AmCPF1-AMIN009291 
CqCPF1-CPIJ002799 
69 a AaCPF1-AAEL000890 
99 — AaCPF2-AAELO000896 
E CqCPF2-CPIJ002800 
AmCPF4-AMINO005668 
100 | AgCPF4-AGAP000382 
72 - AsCPF4 
57 AgCPF3-AGAP004690 
AmCPF3-AMINO007502 
100 AsCPF3 
CqCPF3-CPIJ004475 
86 — AaCPF3-AAELO011068 
64 DmCPF3-CG8543 
DmCPF2-CG8541 
100 DmCPF1-CG7548 
I—— 
0.1 





图 5 基于 推导 的 氨基 酸 序 列 的 6 种 昆虫 CPF 家 族 基因 的 系统 发 育 关系 ( 最 大 似 然 法 ) 
Fig. 5 The phylogenetic relationships of the CPF family genes of 6 insect species based on the deduced amino acid sequences 
( Maximum likelihood ) 
As; 中 华 按 蚊 Anopheles sinensis; Cq: BEJE Culex quinquefasciatus ; Aa; IR NAF IX Aedes aegypti; Ag: XI HE EFR EX Anopheles gambiae; Am: 微小 


Ti Uy Anopheles minimus; Dm: 


AU ARAS Drrosophila melanogaster. 各 序列 缩写 的 种 名 后 为 序列 的 GenBank 登录 号 ;大 于 5096 的 bootstrap 值 标记 


在 树 的 分 支 节 点 上 ;标尺 代表 系统 发 育 距 离 。Following the sequence abbreviation names are their GenBank accession numbers, percentage bootstrap 


values higher than 50% are marked on each branch, and the scale bar indicates the phylogenetic distance. 
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可 以 判断 生日 编码 基因 是 否 存 在 选择 压力 ,也 可 以 
反映 该 基因 的 保守 程度 。 以 冈比亚 按 蚁 为 对 照 ,中 
华 按 蚊 4 个 CPF 表皮 蛋白 基因 的 Ka,Ks 及 Ka/Ks 比 
值 如 表 4 所 示 ,Ka/ Ks 值 均 小 于 1, 介 于 0.02 ~0.13 之 
间 , 表 现 出 纯化 选择 ,说 明 该 家 族 基 因 的 进化 压力 大 ， 
相对 十 分 保守 。 其 中 ,AsCPF2 基因 的 Ka/Ks fi F 
其 他 基因 ,表明 AsCPF2 经 受 的 选择 压力 较 小 。 
表 4 中 华 按 蚊 CPF 表皮 蛋白 基因 的 Ka,Ks 及 Ka/Ks 
Table 4 The Ka, Ks and Ka/Ks values of the CPF 


cuticular protein genes in Anopheles sinensis 


基因 名 








ON, Ka Ks Ka/Ks 
CPF1 0. 0284568 1. 14286 0. 0248996 
CPF2 0. 0839516 0.673782 0. 124598 
CPF3 0. 0880845 2.12152 0. 0415234 
CPFA 0.016147 0.451267 0. 0357815 


Ka/Ks»1, 正 选 择 ; Ka/Ks- 1, 中 性 选择 ; Ka/Ks «1, 纯化 选择 。 
Ka/Ks > 1 positive selection; Ka/Ks = 1 neutral selection; Ka/Ks «1, 


purifying selection. 


2.5 CPF 家 族 基 因 的 剪 切 性 转录 和 表达 

使 用 各 CPF 基因 序列 搜索 转录 组 数据 库 , 结 
表明 所 有 4 个 AsCPF 基因 都 有 转录 子 ,4sCPF]， 
AsCPF2, AsCPF3 和 AsCPF4 分 别 有 3, 2, 1 和 2 个 
不 同 的 选择 性 剪 切 子 ( 表 5)。 图 6 显示 CPF 家 族 各 





基因 的 结构 及 不 同 选 择 性 剪 切 的 位 置 。 

以 FPKM 作为 选择 性 勇 切 子 的 表达 丰 度 标准 ， 
AsCPFl 的 FPKM 为 5. 7735 ( CL1630. Contigg 5) ~ 
40.3858 ( CL1630. Contig3 _ 5 ), AsCPF2 为 43. 1798 
( CL1630. Contige2. 5) ~ 53. 5612 ( CL1630. Contigl 5), 
AsCPF3 为 384. 9348 ( Unigenel4355 | 5), AsCPFA 为 
0. 3832( CL1336. Contig2 5) ~ 116. 2549 ( CL1336. Contigl 
5) 5) YPREEEAEDIBUJBPG BYT FPKM 总 和 可 以 
看 出 ,AsCPF3 的 表达 量 最 大 (FPKM 2384. 9348) ,其 次 
是 AsCPF4 ( FPKM = 116. 6381) , AsCPF2 ( FPKM = 
96.741) 和 AsCPF1(FPKM =84. 4908) ( 表 5)。 


RS 中 华 按 蚊 CPF 表皮 和 蛋白 基因 的 选择 性 剪 切 及 表达 丰 度 


Table 5 Splicing variants and transcription richness of 








the CPF cuticular protein genes in Anopheles sinensis 





基因 名 选择 性 剪 切 ID 表达 丰 度 KAFEA 
Cene name Splicing variants ID FPKM Total FPKM 

CL1630. Contig3. 5 40.3858 

AsCPF1 CL1630. Contig4. 5 38.3315 84. 4908 
CL1630. Contig5. 5 24323 

ACPE2 CL1630. Contigl 5 53.5612 06.741 
CL1630. Contig2. 5 43.1798 

AsCPF3 Unigenel4355 5 384. 9348 384. 9348 

AsCPFA CL1336. Contigl 5 116.2549 116. 6381 


CL1336. Contig2. 5 0. 3832 


FPKM: Number of fragments per kilobase of exon model per million 
mapped reads. 
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Fig. 6 Structure and splicing variants of the CPF cuticular protein genes in Anopheles sinensis 





表皮 和 集 日 是 组 成 昆虫 表 扩 外 骨骼 的 主要 成 分 之 








一 ,表皮 和 蛋白 基因 的 数量 约 占 基 因 组 中 和 蛋白 编码 基 
因 总 数 的 2% (Willis, 2010; Neafsey et al., 2015) 。 
目前 已 在 多 种 昆虫 中 鉴定 出 CPF 家 族 基因 ,如 在 内 
比 亚 按 蚊 中 该 家 族 有 4 个 基因 成 员 ( GenBank 登录 
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c. EF382662) , Æ fi R ia HA 3 个 成 员 (GenBank 
登录 号 : NM. 139874, NM. 139870 和 NM. 139869) 
( Togawa et al., 2007) 。 本 人 研究 基于 中 华 按 蚊 基因 
组 数据 , 共 鉴 定 得 到 4 个 中 华 按 蚊 CPF 家 族 基因 
Hp dos Rp EE TE SC CPF 家 族 基因 数量 相同 。 
利用 生物 信息 学 方法 全 面 分 析 了 这 些 基 因 的 序列 特 
征 ,发 现 AsCPF1, AsCPF2, AsCPF3 和 AsCPF4 分 别 
有 3,2,1 和 2 个 不 同 的 选择 性 前 切 子 ,AsCPF3 的 
表达 量 最 大 ,其 次 是 AsCPF4, AsCPF2 和 AsCPF1, 
同时 在 站 比 亚 按 蚊 微小 按 蚊 、 埃 及 伊 蚊 、 致 伴 库 蚊 
和 黑 腹 霖 晶 全 基因 组 上 分 别 鉴定 出 了 4, 4, 3, 3 和 
3 个 CPF 家 族 的 基因 ,并 对 中 华 按 蚊 、 风 比 亚 按 蚊 、 
微小 按 蚊 .埃及 伊 蚊 、 致 倦 库 蚊 和 黑 腹 果 晶 CPF 家 
族 基 因 进 行 了 比较 分 析 , 丰 富 了 昆虫 表皮 重 日 超 家 
族 基 因数 据 , 有 利于 推动 表皮 得 日 在 蚁 虫 生长 发 育 
中 基因 表达 调控、 功 能 及 其 他 生物 学 方面 的 研究 ， 
Je pz EAE PS TE Bb rh e BIA IE DSM RE UN 
形 的 塑造 ,个体 行 为 及 活动 能 力 以 及 先天 免疫 等 生 
理 现象 和 生理 过 程 中 的 重要 作用 ( 桨 欣 等 ,2014 ) , 
同时 , 7g AE T x BER EI ESL A] E RJ d E Wet UT DE 
提供 基础 信息 。 

与 其 他 昆虫 CPF 基因 编码 的 氨基 酸 序 列 进行 
IH] JE EEG] XL, rn fed ic CPF 家 族 基 因 均 具有 该 
家 族 典 型 的 2 个 保守 结构 域 , 即 44 个 氨基 酸 局 域 和 
C- 末 并 局 域 ,这 种 典型 的 保守 结构 域 瞳 示 这 些 基 因 
可 能 与 其 特定 的 生物 学 功能 有 关 ( Andersen et al., 
1995 ) 。 中 华 按 蚊 4 个 CPF 基因 的 基因 结构 与 你 比 
亚 按 蚁 基本 一 致 ,只 有 4sCPH4 和 4eCPH4 基因 的 内 
售 子 相位 不 一 致 (Holt et al., 2002) ,这 种 不 变 的 基 
因 绪 构 是 否 与 功能 相关 ,还 有 竺 进一步 的 人 研究。 路 
膜 区 预测 显示 ,只 有 AsCPF4 DN SA REA, HH 
结合 重 晶 通常 不 溶 于 水 ,分离 纯化 比较 困难 ,日 不 易 
成 晶体 ,很 难 确 定 其 结构 。 系 统 发 育 关 系 显 示 
CPF3 基因 可 能 是 最 早 分 化 出 来 的 CPF 基因 ,CPP 
和 CPF2. 基因 间 的 序列 相似 性 最 高 ,可 能 是 同一 祖 
和 完 基 因 经 过 一 个 基因 重复 事件 分 化 形成 的 , CPFA 
基因 很 可 能 是 按 蚊 属 蚊虫 特有 的 ,是 最 晚 分 化 出 来 
的 CPF 基因 。 

在 自然 界 中 , 非 同 义 蔡 换 一 般 部 是 有 害 突变 ,在 
这 些 突变 位 点 上 , 碱 基 的 答 换 将 由 于 负 选 择 作用 而 
保持 比较 低 的 突变 速率 ( 周 琦 和 王 文 , 2004) 。 为 了 
确定 CPF 表皮 和 焦 晶 林 因 在 进化 上 的 选择 模式 ,利用 
Ka 与 Ks 的 比值 来 评估 ,如 Ka/Ks 值 <1, 则 认为 有 
纯化 选择 的 压力 , 即 同 义 蔡 换 的 速率 高 于 非 同 义 符 
















































































换 的 速率 ,Ka/Ks 值 越 小 ,表明 该 基因 承受 的 选择 压 
力 越 大 , PRSE EE BEER E; ( Wagner, 2002; 周 琦 和 王 
X, 2004), 。 中 华 按 蚊 CPF 表皮 和 集 日 基因 的 Ka/Ks 
值 均 远 小 于 1, 介 于 0.02 ~0.13 之 间 , 表 明 该 家 族 
表皮 和 集 日 基因 均 为 纯化 选择 ,进化 上 相对 保守 ,暗示 
这 些 表皮 和 集 晶 对 蚊虫 的 生存 和 特定 的 功能 是 必 不 可 
少 的 ( 染 九 波 等 , 2008 ) 。 

x] EC Tcp T 2E Ax BL, CPF zz E EI AED 
仅 在 师 或 成 虫 蚁 皮 前 表达 ,参与 上 表皮 的 形成 
( Togawa et al., 2007 ; Papandreou et al., 2010) ,我 们 
HEM ep e dc PA AE A TE n RE Pd EC TÉ 
BOE UL , [HRS] E 2] 57: 1] RE se Hz ftl p k AS Jr H E 
^H HL IE—2P BJTRO c 
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